『集計』を理解する|Tableau Software Tips&Viz Advent Calendar 2014 #02 #tableau
2014年アドベントカレンダー『Tableau Software Tips&Viz(全部俺) Advent Calendar 2014』2日目です。Tableau Softwareに関する機能紹介、便利ネタや可視化ネタ等を毎日1本ずつ計25本、『1人(全部俺)』で担当してお届けしています。
昨日1日目の投稿ネタは『シンプルなテキスト表を作成する』でした。
本日2日目はTableauに於ける『集計』の選択内容について。その処理・生成内容を1つずつ見て行きたいと思います。
目次
下準備
まず始めに、『SuperStore Sample』日本語版を用い、以下の様に要素を配置してカテゴリ/サブカテゴリ毎の売り上げ棒グラフを作成します。
事務用品の中で数値の少ない項目は幾つかまとめてしまいましょう。(Macの場合)Commandボタンを押しながら項目を以下の様に複数選択し(WindowsだとCtrlボタン?)、右クリックで『グループ』を選択。
名前を別名指定します。
Tableauではこの様に要素に別名を割り振る事も可能です。
色を付ける等して、以下の様にグラフを用意しました。
合計
指定の要素を所定のグルーピングで行った場合の数値の合計値。『下準備』で表示している棒グラフ内の数値は、数値項目をラベルに落とし込んだ時にデフォルトでこの『合計』が割り当てられます。棒グラフ内の任意の要素を右クリックし、[データの表示]を選択。
すると、所定内容のデータ概略(サマリー)、及びデータの詳細(参照元)を確認する事が出来ます。"参照元"は初期表示だと全ての項目が表示されていますので[すべてのフィールドを表示]のチェックを外します。必要最低限の項目のみが表示されるようになりました。グラフ上に表示されている数値はこれらの『売り上げ』の値を合算したものである事が分かります。
平均
指定の要素を所定のグルーピングで行った場合の数値の平均値。上記で作成したグラフをそのまま使ってみます。平均値を積み上げるのも何かアレな気がするのでここは表示形式を変えてしまいましょう。[表示形式]でテキスト表を選択。
すると、棒グラフが一瞬でテキスト表に変わります。[カテゴリ]が抜け落ちてしまいましたので改めて行に追加。表示内容を見易くする為にスワップで行列変換を行い、ラベル表示に使っていた売り上げ情報の表示内容を『平均』に変更します。
これで、カテゴリ・サブカテゴリ毎の売り上げ平均値が表示されました。
中央値
所定データ内の中央値を表示。[データの表示]ウインドウでは項目値のソートも出来ますので試しに金額項目をソートして確かめてみましょう。ちゃんと中央値が表示されていますね。
カウント / カウント(個別)
- カウント:所定データ内の件数。WHERE条件内でのSELECT COUNT(*)。
- カウント:所定データ内に於ける、一意の件数。WHERE条件内でSELECT DISTINCTした際の件数。
カウントの確認をするために、表示要素を『単価』に置き換えます。その後に[カウント]を選択。
『カウント』を指定した際、任意の場所の件数は18件と表示されました。
一方、同じ要素を『カウント(個別)』で指定すると、今度は7件と表示されました。
データ内容を確認してみましょう。確かに、全件:18件、単価でDISTINCTすると合計7件になっていますね。
最小値 / 最大値
- 最小値:所定条件内データ一覧の中の最小値。
- 最大値:所定条件内データ一覧の中の最大値。
上記『カウント』及び『カウント(個別)』で使った単価情報を使ってみましょう。[テクノロジー]→[コピー機とファックス]→[ホームオフィス]に於ける単価の最小値は14,999、最大値は349,999となっていますが、それぞれ指定した際にもその値が表示されています。
百分位
こちらの『百分位』、いまいち分かり易い解説が見つからず、以下のページにある解説がサンプルデータも含め一番分かり易かったので引用させて頂きます。
サンプルデータを作ってみます。下記CSVの東京都のデータは0から100までの金額を持つ101件で構成されています。
地域,都道府県,金額 関東,東京都,0 関東,東京都,1 関東,東京都,2 : (中略) : 関東,東京都,98 関東,東京都,99 関東,東京都,100 関東,神奈川県,2000 関東,千葉県,30000
上記のCSVファイルをTableauで読み込んでみます。東京都で表示される初期値は101件の合計値(5050)ですが、
百分値の値を変えて行くと、最大値を100%とした際の指定値に対応する値が表示されました。
SuperStore Sampleのデータに戻って見てみましょう。百分位(75)で表示してみましたが、恐らくこういう意味合いになるのでは、と理解しました。(※すみません、もし間違ってたら御指摘頂けますと幸いです。)
標準偏差 / 母標準偏差
こちらは百分位以上にピンと来ませんでしたw (学生時代、文系だったもので...)幾つか情報を漁ってみたところ、以下のサイトにサンプル付きで分かり易く解説されていましたのでご紹介。
上記解説ページに載っているように、シンプルなサンプルデータを用意してみました。このデータの場合、標準偏差はルート2(1.414...)になるはずですが...
地域,都道府県,点数 関東,東京都,1 関東,東京都,2 関東,東京都,3 関東,東京都,4 関東,東京都,5
初期表示時。合計値なので15が表示されています。
標準偏差を選択。1.581と表示されました。
次いで母標準偏差を選択。こちらは1.414と表示されました。
公式ドキュメントの集計の該当項目を参照してみると、標準偏差の方には『サンプル母集団に基づいて〜』とあるのでこの数値についてはこちらの解説ページに於ける『標本』の集団から算出した値となるのでしょう。細かい部分についてはまた追々理解を深めて行こうと思います。
分散 / 母分散
いや〜、これはさっぱり分かんね(´・ω・`)w
まとめ
以上、『Tableau Tips&Viz(全部俺) Advent Calendar 2014』2日目、『集計を理解する』でした。多種多様な計算形式での表示がTableauでは可能となっていますので、内容をそれぞれ理解して使い分けて行きたいところですね。では明日もお楽しみに!